import jieba
import jieba.analyse

#第一步：分词，这里使用结巴分词全模式
text = '''
端午节结束的时候去住了一天，相比莫干山的民宿，我觉得还是很物有所值的。 
最好玩的是水乐园，我们是真的在里面待了一整天，有小朋友玩的水上滑滑梯，也有大朋友玩的各种滑道。 
水乐园和幻想岛是2个独立的项目，即使不住酒店，也可以单独带孩子游玩水乐园或者幻想岛，适合周边的居民们。 
我们订的山景小木屋，直接升级到了木屋套房，实在是太好了，感觉带客厅的房间舒服好多。 
早餐的热带雨林餐厅特别独特，东西供应的也非常的多。7，8月是旺季，房间也是好贵好贵，如果不差时间，可以错峰到9月去比较好。
'''
fenci_text = jieba.cut(text)
#print("/ ".join(fenci_text))

#第二步：去停用词
#这里是有一个文件存放要改的文章，一个文件存放停用表，然后和停用表里的词比较，一样的就删掉，最后把结果存放在一个文件中
#stopwords = {}.fromkeys([ line.rstrip() for line in open('stopwords.txt') ])
final = ""
for word in fenci_text:
    #if word not in stopwords:
    if (word != "。" and word != "，") :
        final = final + " " + word
print(final)
 
#第三步：提取关键词
a=jieba.analyse.extract_tags(text, topK = 5, withWeight = True, allowPOS = ())
b=jieba.analyse.extract_tags(text, topK = 6,   allowPOS = ())
print(a)
print(b)
#text 为待提取的文本
# topK:返回几个 TF/IDF 权重最大的关键词，默认值为20。
# withWeight:是否一并返回关键词权重值，默认值为False。
# allowPOS:仅包括指定词性的词，默认值为空，即不进行筛选。
